Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
密集的预测任务对于3D点云很常见,但是在大量点及其嵌入中的固有不确定性长期以来一直被忽略。在这项工作中,我们提出了CUE,这是一种用于3D点云密集预测任务的新型不确定性估计方法。受公制学习的启发,提示的关键思想是探索传统密集的预测管道上的交叉点嵌入。具体而言,CUE涉及建立概率嵌入模型,然后在嵌入空间中执行大量点的指标。我们证明CUE是在两个不同任务中对3D点云的密集不确定性估算的通用和有效的工具:(1)在3D几何特征学习中,我们首次获得了良好的密集不确定性,(2)在语义段中我们将不确定性的预期校准误差减少了43.8%。所有不确定性均可估算,而不会损害预测性能。
translated by 谷歌翻译
多语言机器翻译已被证明是一种有效的策略,可以用单个模型在多种语言之间进行翻译。但是,大多数研究都集中在多语言句子翻译上,而无需考虑跨不同语言生成长文档,这需要了解多语言上下文依赖性,并且通常更难。在本文中,我们首先是天真地纳入辅助多语言数据的辅助目标或源辅助数据对我们感兴趣的源目标对没有任何改进。在这一观察过程中,我们提出了一个名为多语言传递性(MTRAN)的新型框架,以在多语言模型中通过源辅助目标找到一个隐式的最佳途径。为了鼓励MTRANS,我们提出了一种称为三重平行数据(TPD)的新方法,该方法使用包含(源 - 载体,辅助目标和源目标)的平行三重线进行训练。然后,辅助语言充当枢轴,并自动促进隐式信息过渡流,从而更容易翻译。我们进一步提出了一个名为“双向多语言协议”(BI-Magree)的新颖框架,该框架鼓励不同语言之间的双向协议。为了鼓励Bi-Magree,我们提出了一种称为多语言Kullback-Leibler Divergence(MKL)的新颖方法,该方法迫使输入的输出分布具有相同的含义,但以不同的语言彼此一致。实验结果表明,我们的方法对三个文档翻译任务的强大基准进行了一致的改进:IWSLT2015 ZH-EN,DE-EN和VI-EN。我们的分析验证了MTRAN和BI-MAGREE的实用性和存在,我们的框架和方法对合成辅助数据有效。
translated by 谷歌翻译
反转合是药物发现的主要任务。通过许多现有方法,它被称为生成图的问题。具体而言,这些方法首先识别反应中心,并相应地打破靶分子以生成合成子。反应物是通过顺序添加到合成图或直接添加正确的离开组来生成反应物。但是,两种策略都遭受了添加原子以来会导致长期的预测顺序,从而增加了产生难度,同时添加离开组只能考虑训练集中的序列,从而导致概括不佳。在本文中,我们提出了一个新颖的端到端图生成模型,用于逆转录合成预测,该模型顺序识别反应中心,生成合成子,并将基序添加到合成子中以生成反应物。由于化学有意义的基序比原子大,比离开组还小,因此与添加原子相比,与添加离开组相比,我们的方法的预测复杂性较低。基准数据集上的实验表明,所提出的模型显着胜过先前的最新算法。
translated by 谷歌翻译
Starcraft II(SC2)对强化学习(RL)提出了巨大的挑战,其中主要困难包括巨大的状态空间,不同的动作空间和长期的视野。在这项工作中,我们研究了《星际争霸II》全长游戏的一系列RL技术。我们研究了涉及提取的宏观活动和神经网络的层次结构的层次RL方法。我们研究了课程转移培训程序,并在具有4个GPU和48个CPU线的单台计算机上训练代理。在64x64地图并使用限制性单元上,我们对内置AI的获胜率达到99%。通过课程转移学习算法和战斗模型的混合物,我们在最困难的非作战水平内置AI(7级)中获得了93%的胜利率。在本文的扩展版本中,我们改进了架构,以针对作弊水平训练代理商,并在8级,9级和10级AIS上达到胜利率,为96%,97%和94 %, 分别。我们的代码在https://github.com/liuruoze/hiernet-sc2上。为了为我们的工作以及研究和开源社区提供基线,我们将其复制了一个缩放版本的Mini-Alphastar(MAS)。 MAS的最新版本为1.07,可以在具有564个动作的原始动作空间上进行培训。它旨在通过使超参数可调节来在单个普通机器上进行训练。然后,我们使用相同的资源将我们的工作与MAS进行比较,并表明我们的方法更有效。迷你α的代码在https://github.com/liuruoze/mini-alphastar上。我们希望我们的研究能够阐明对SC2和其他大型游戏有效增强学习的未来研究。
translated by 谷歌翻译
联合学习(FL)是一种机器学习范式,允许分散的客户在不共享其私人数据的情况下进行协作学习。但是,过度的计算和沟通要求对当前的FL框架构成挑战,尤其是在训练大型模型时。为了防止这些问题阻碍FL系统的部署,我们提出了一个轻巧的框架,客户共同学习融合由多个固定预训练的模型生成的表示形式,而不是从SCRATCH培训大型模型。这通过考虑如何从预先训练的模型中捕获更多特定于客户的信息,并共同提高每个客户利用这些现成模型的能力,从而导致我们解决了一个更实用的FL问题。在这项工作中,我们设计了一种联合原型对比度学习(FEDPCL)方法,该方法通过其类原型共享客户的知识,并以原型对比度方式构建特定于客户的表示。共享原型而不是可学习的模型参数可以使每个客户以个性化的方式融合表示表示,同时以紧凑的形式保持共享知识以进行有效的通信。我们在轻量级框架中对拟议的FEDPCL进行了彻底的评估,以测量和可视化其在流行的FL数据集上融合各种预训练模型的能力。
translated by 谷歌翻译
Covid-19幸存者中很大一部分经历了经常影响日常生活的持续多系统症状,这种疾病被称为SARS-COV-2感染的长期或急性后静脉曲张。但是,识别长期的卷文章是具有挑战性的,因为文章是指使用各种较少常见的术语或根本不使用命名的条件。我们开发了一个迭代的人类机器学习框架,旨在有效利用可用的数据并最有效地利用人类标签。具体而言,我们的方法将数据编程与主动学习结合到了强大的集合模型中。在保留集上评估我们的模型表明了其他方法的灵敏度的三倍。我们将模型应用于PubMed来创建长期的共同集合,并证明(1)最长的卷vid文章在命名该条件时并不是用任何名称(2)来指代长的covid,在生物医学文献中最常使用的名称是长的,并且(3)长互联物与各种身体系统中的疾病有关。长期COVID系列每周更新,可在Litcovid门户网站上进行在线搜索:https://www.ncbi.nlm.nih.gov/research/coronavirus/docsum/docsum?filters=e_condition.longcondition.longcovid.longcovid
translated by 谷歌翻译
长期以来,将物体检测推向开放量和几乎没有射击转移一直是计算机视觉研究的挑战。这项工作探讨了一种持续的学习方法,该方法使探测器能够通过多数据远见语言的预训练扩展其零/少量功能。我们使用自然语言作为知识表示,我们探讨了从不同培训数据集积累“视觉词汇”的方法,并将任务统一为语言条件的检测框架。具体而言,我们提出了一种新颖的语言感知探测器OMDET和一种新颖的培训机制。拟议的多模式检测网络可以解决多数据库联合培训中的技术挑战,并且可以推广到任意数量的培训数据集,而无需手动标签分类合并的要求。与单独训练相比,Coco,Pascal VOC和更宽的面部/行人的实验结果通过在关节训练中或更高的分数来证实了疗效。此外,我们对超过400万个独特的对象词汇进行了预先培训,并在ODINW的35个下游任务上评估了所得模型。结果表明,OMDET能够在ODINW上实现最新的微调性能。分析表明,通过扩展提出的预训练方法,OMDET继续改善其零/少量调整性能,这表明了进一步扩展的有希望的方法。
translated by 谷歌翻译
培训和测试数据之间的分布变化通常会破坏深度学习模型的性能。近年来,许多工作都注意存在分布转移的领域泛化(DG),而目标数据看不见。尽管算法设计取得了进展,但长期以来一直忽略了两个基础因素:1)基于正则化的目标(例如,分布对齐)的优化和2)DG的模型选择,因为无法利用有关目标域的知识。在本文中,我们提出了用于域概括的优化和选择技术的混合。为了进行优化,我们利用改编的混音来生成一个分发数据集,该数据集可以指导首选项方向并通过帕累托优化进行优化。对于模型选择,我们生成一个验证数据集,距离目标分布距离更遥远,从而可以更好地表示目标数据。我们还提出了一些理论见解。对一个视觉分类基准和三个时间序列基准的全面实验表明,我们的模型优化和选择技术可以在很大程度上可以改善现有域概括算法的性能,甚至可以取得新的最先进的结果。
translated by 谷歌翻译